سیگنال گفتاری به دو صورت بازنمایی میشود:1) بازنمایی در واحد زمان که همان شکل موج است. در این بازنمایی ما میتوانیم خود شکل موج، دوره تناوب آن، پریودیک یا غیرپریودیک بودن شکل موج و آشفتگیها را مشاهده کنیم. 2) بازنمایی در واحد فرکانس: این نوع بازنمایی همان کاری است که اسپکتروگرافی انجام میدهد و یک تصویر سه بعدی برای ما فراهم میکند. در این نوع بازنمایی ما هم فرمنتها و هم هارمونیکها را میتوانیم بخوبی مشاهده کنیم.
طیف نگار برای ما یک طیف نگاشت ایجاد میکند که یک نمایش گرافیکی از انرژی اجزا فرکانسی سیگنال گفتاری است. به طور قراردادی، زمان روی محور x، فرکانس روی محور yو انرژی یا دامنه سیگنال روی محور zنمایش داده میشود.
انرژی معمولا با خطوط عمودی تیره نمایش داده میشود که هرجه تیرهتر باشد، به معنای وحود انرژی بیشتر میباشد.
اسپکتروگرافی بر پایه تئوری Fourier میباشد که میگوید همه امواج پریودیک قابلیت تجزیه شدن به امواج سینوسی با دامنههای متفاوت میباشند که فرکانسهای آنها با یکدیگر نسبت صحیحی دارند. Fourier analysisفرایندی است که یک موج پیچیده را به موجهای سینوسی ساده تبدیل میکند.
* Narrowband and Wideband spectrogram:
همانطور که میدانید رابطه بین زمان و فرکانس عکس است و در حالیکه F=1/tعکس آن t=1/Fنیط صحیح میباشد. اسپکتروگرام ممکن است اطلاعاتی در مورد ساختارهای هارمونیکی منبع سیگنال و یا اطلاعاتی در مورد ویژگیهای تشدیدی مجرای صوتی بدهد. هر دوی این مجموعه از اطلاعات، نمیتوانند به طور همزمان نمایش داده شوند، چونکه همانطور که ذکر شد زمان و فرکانس عکس هم هستند.
زمانیکه اطلاعات فرکانسی و یا زمانی نمایش داده میشوند، این جزئیات به frequency resolution (شفافیت فرکانسی) و یا time resolution( شفافیت زمانی) ارجاع داده میشود. Resolution به معنایFilter bandwidthتوصیف میشود. حال به توصیف انواع اسپکتروگرام میپردازیم:
* Wideband spectrogram:
دارای پهناد باند زیادی است که تعدادی فرکانس را در یک زمان عبور میدهد و به همین خاطر فرکانسهای خروجی از آن قابل تمایز از یکدیگر نیستند.
از دیگر ویژگیهای ان میتوان به موارد زیر اشاره کرد:
1- frequency resolutionضعیفی دارد
2- time resolutionخوب است.
3- در آن هارمونیکها با هم ترکیب میشوند و از یکدیگر قابل تمایز نیستند.
4- ساختار فرمنتی را به خوبی نشان میدهد.
5- میتوان در آن پاالسهای حنجره را مشاهده کرد.
* Narrowband spectrogram:
دارای پهنای باند کمی میباشد و تنها یک فرکانس را در واحد زمان از آن عبور میکند، بهمین خاطر در خروجی آن همه فرکانسها از یکدیگر از یکدیگر قابل تمایز هستند. از دیگر ویژگیهای آن میتوان به موارد زیر اشاره کرد:
1- frequency resolutionخوبی دارد.
2- time resolutionضعیف است(زمان زیادی برای فیلتر کردن گفتار نیاز دارد).
3- در آن هارمونیکها از یکدیگر قابل تمایز اند.
4- ساختار فرمنتی را به خوبی نشان نمیدهد.
5- نمیتوان در آن پاالسهای حنجره را مشاهده کرد.
* ایجاد اسپکتروگرافی گفتار:
1- Direct (speech) Translator:
از ابزارهایی که میتوانند با استفاده از فیلنرها یک تصویر سه بعدی ایجاد کنند Direct (speech) Translatorمیباشد. این ابزار دوازده فیلتر آنالیز کننده را بکار میبرد که هرکدام دارای پهنای باند Hz300 میباشد که کل محدودهی فرکانسی تحت پوشش آن Hz3600 میباشد. هر فیلتر با یک لامپ کوچک ارتباط دارد زمانیکه هر کدام یک از این لامپها روشن میشود، یک نمودار از روشنایی بر روی نوار متحرک از فسفروسنت تولید میشود. هر چه شدت خروجی فیلتر بیشتر باشد، نور تولید شده بوسیله لامپ مرتبط با فیلتر بیشتر خواهد بود و اثر آن روی نوار فسفرسنت بیشتر خواهد بود. بنابراین درجات محتلف روشنایی برای ایجاد یک نمایش سه بعدی فراهم میشود.
باندهای با فرکانس پایین در پایین، و باندهای با فرکانس بالا در بالای آن قرار میگیرند. تونایی این ابزار به تعداد فیلترها محدود میشود. و به عبارت دیکر براد محدودهی فرکانسی بیش از Hz3000، لازم است که هر فیلتر یک یک باند پهن داشته باشد، که در غیر این صورت بخشی از جزئیات از دست داده میشود. به عبارت دیگر کاهش پهنای باند فیلترها، منجر به کاهش محدودهی فرکانسی نمایش داده میشود.
2- sonagraph:
در اینجا یک جمله کوتاه برای انالیز کردن روی یک نوار ضبط میشود، سپس چندین بار پخش میشود و سپس گفتار وارد یک فیلتر میشود، فرکانس مرکزی فیلتر (فرکانسی که در میانه باند فرکانسی قرار دارد) به تدریج به سمت بالا حرکت میکند. نا زمانیکه حداکثر فرکانس بدست آید. در این شیوه ، از یک فیلتر برای ایجاد مجموعه بزرگی از فیلترها استفاده میشود.
خروجی فیلتر به یک قلم سوزنی وصل است که به یک صفحهی کاغذی حساس به الکتریسیته ارتباط دارد، که روی یک بخش استوانهای مانندی قرار دارد. این استوانه به همراه نوار ضبط شده میچرخد. خروجی قویتر از فیلتر، اثرات تیرهتری روی کاغذ ایجاد میکند. هنگامیکه فرکانس مرکزی فیلتر به سمت بالا حرکت میکند، قلم سوزنی هم از پایین به بالای کاغذ منتقل میشود. در این شیوه، اثرات خروجی از تکرار مجموعهها روی یکدیگر ضبط میشوند. در مورد sonagraph، انچه روی کاغذ ثبت میشود، دائمی بوده در حالیکه در Direct (speech) Translatorیک نمایش موقتی روی نوار فسفری ایجاد میشود. در اینجا شدت در ارتباط با تیرگی است.
3- Digital Methods:
با پیشرفت تکنولوژی این امکان بوجود آمد که از کامپیوترها برای تعیین خروجی فیلترها استفاده شود، بنابراین زمان زیادی برای ایجاد فیلترهای واقعی نیاز نبود، این باعث شد که این شیوه انعطاف پذیرتر شود و به کاربر فرصت انتخاب محدودهی فرکانسی و طول موقتی هر اسپکتروگرام را بدهد.
* ویژگیهای اسپکتروگرام واکهها:
برای اینکه یک واکه ایجاد شود باید یک درجهی کوچکی از تنگی مجرای صوتی در مکانهای مختلف در طول مجرای صوتی رخ دهد. جایگاه تنگی و درجه آن میتواند برای تشخیص خروچی آکوستیک واکهها بکار برده شود.تنگی در مجرای صوتی بوسیلهی حرکات زبان، لب، فک و همچنین انقباض دیوارههای حلق رخ میدهد.
پس شکل مجرای صوتی، سازههای فرکانسی را مشخص میکند و اینکه روابط بین سازههای فرکانسی، یک نمایش آکوستیکی از واکهها برای ما فراهم میکند. اما پوسچر مجرای صوتی خیلی پیچیدهتر از توصیف سادهی ارتفاع و پیشروی زبان است ( که در گذشته برای توصیف واکهها به کاربرده میشد) پس بهتر است در بررسی واکهها از روابط بین سازههای فرکانسی استفاده کرد. که در زیر به توصیف دقیقتر ارتباط بین حرکات اندامهای تولیدی و سازههای فرکانسی میپردازیم:
F1، ارتباط معکوسی با ارتفاع واکه دارد. این بدان معنی است که هنگامیکه واکه بازتر میشود، F1افزایش مییابد. که این ویژگیها برای هر دوی واکههای خلفی و قدامی است. بنابراین F1اثر معکوسی روی درک ارتفاع واکه دارد. ارتباط F2و ارتفاع واکه از قطعیت کمتری برخوردار است. برای واکههای قدامی F2، هنگامیکه واکه باز میشود، کاهش مییابد. برای واکههای خلفی، ارتباط واضحی دیده نمیشود.
در مورد پیشروی واکه، زمانیکه واکه از خلف به قدام حرکت میکند، بطور کلی F2افزایش مییابد، اما این نکته همیشگی و ثابت نیست. و همانطورکه گفتیم گردی لبها باعث کاهش همه فرمنتها میشود. محتملتر این است که درک پیشروی واکه یک عملکرد از هر دوی F1و F2است. هرگاه F1و F2به سمت یکدیگر حرکت کنند، درک واکه به عنوان یک واکه خلفی بیشتر میشود.
پس بطور خلاصه میتوان ویژگیهای اسپکتروگرام واکهها را به این شکل بیان کرد:
1- اختلاف میان واکه های مختلف را، اختلاف بین دوفرمنت اول (f1 ,f2)مشخص می کند
2- هنگام تولید واکه ها دو حفره تشدید کننده صوتی توسط زبان ایجاد می شود
3- حفره پشتی زبان با f1در ارتباط است
4- حفره جلویی زبان با f2در ارتباط است
5- هرچه حفره جلویی زبان کوچکتر باشد f2بیشتر است
در واکههای خلفی و قدامی :
1- F1ارتباط دارد با ارتفاع واکه (vowel height)یا برخاستگی زبان
2- هرچه ارتفاع واکه کمتر(دهان بازتر) درنتیجه f1بیشتر
3- ارتباط f2با ارتفاع واکه های خلفی کاملا مشخص نیست
در پیشروی واکه:
1- از خلف به سمت قدام: f2 افزایش پیدا می کند (ثابت و همیشگی نیست) و با گردشدگی لبها همه فرمنتها کاهش مییابند.
2- پس در واکه های خلفی فاصله f1وf2از یکدیگر کمتر از واکه های قدامی است
3- در حرکت واکه از خلف به سمت قدام: فاصله f3وf2با یکدیگر کمتر می شود
* عوامل موثر بر طیف واکهها:
1- شکل مجرای صوتی:
ارتباط بین سازههای فرکانسی با شکل مجرای صوتی ثابت و قطعی نیست به این علت که حرکات و درجات آزادی متفاوتی وجود دارد که میتوانند تعداد نامحدودی از اشکال مجرای صوتی را برای تولید یک سازهی فرکانسی بوجود آورند.
بطور کلی روابط زیر در ارتباط با تاثیر شکل مجرای صوتی بر طیف واکهها مطرح میباشند:
الف) هر چه طول مجرای صوتی بیشتر باشد، فرکانس همه فرمنتها کاهش مییابد.
ب) گردی لبها منجر به کاهش همه فرمنتها میشود
ج) تنگی خلفی دهان (بالا رفتن بخش خلفی زبان) منجر به کاهش F2میشود.
د) تنگی قدامی دهان (بالا رفتن نوک زبان) منجر به کاهش F1و افزایش F2میشود.
ه) تنگی حلقی باعث افزایش F2میشود
2- شدت یا تلاش صوتی:
هنگامیکه شدت صوتی افزایش مییابد، باعث افزایش دامنه F2و F3میشود.
3- سرعت گفتار:
اثر سرعت تولید هجا روی سازههای فرکانسی هنوز نامشخص است. بگونهای که Kritaniمیگوید که فرمنتها خصوصا F2با افزایش سرعت گفتار تغییر میکند (چون دیرش واکه کاهش مییابد)، در حالیکه Gayو Engstrandمیگویند هنگامی که سرعت هجاها از آهسته به سریع تغییر میکند، تغییری در فرمنت واکهها دیده نمیشود.
ویژگیهای طیفی همخوانها:
الف) همخوانهای انسدادی:
در اسپکتروگرام همخوانهای انسدادی ما 4 ویژگی مهم مشاهده میکنیم: 1- شکاف انسدادی 2- رهش 3- گذر سازهای 4- انفحجار رهشی
1- شکاف انسدادی: شکاف انسدادی یا silence، در طی تولید انسداد قبل از رها شدن جریان هوا رخ میدهد. که برای همخوانهای انسدادی بیواک (p/t/k) به شکل کامل رخ میدهد و برای همخوان های واکدار (b,d,g) در طی این انسداد ارتعاش تارهای صوتی رخ میدهد که صوتی با یک دامنه کم تولید می کند که از آن تعبیر به voice barمی شود.
2. انفجار رهش: یک نویز انفجاری گذراست که هنگام رها شدن انسداد رخ می دهد. این نویز ناشی از این است که در هنگام انسداد فشار داخل دهانی افزایش پیدا میکند و بیشتر از فشار اتمسفر می شود. انفجار رهش ناشی از برخورد ناگهانی این دو فشار است که برای همخوان واکدار 10-30 msو برای همخوان بی واک مقداری طولانی تر است.
این انفجار باعث تغییرات ناگهانی در دامنه بعد از stop gapمی شود. که در اسپکتروگرام ممکن است به شکل وجود انرژی ناگهانی در همه فرکانس ها بلافاصله بعد از شکاف دیده شود.
3. دمش: دمش مشابه با سایشی بی واک /h/می باشد یا یک آه بی واک و سریع که باعث ایجاد نویز گسترده در بین همه فرکانس ها می شود. در انسدادی های بی واک و در موقعیت اول، ممکن است دمش دیده نشود. و معمولا در انسدادی های واکدار دمش بعد از رها شدن انسداد دیده نمی شود.
4. گذر سازه ای: برای گذر سازه ای (انتقال فرمنتی) همخوان های انسدادی ویژگی های زیر مطرح شده است:
1. در انسدادی های دو لبی (p/b): انتقال فرمنت ها –خصوصا f2و f3–را به سمت پایین داریم.
2. در انسدادی های لثوی (t/d): f3تمایل به افزایش دارد.
3. در انسدادی های کامی (k/g) : نزدیک شدن f2و f3را داریم که به آن velar pinchگفته میشود.
اما Bakenمهمترنی ویژگی های همخواهنهای انسدادی را به شرح زیر بیان می کند:
انسدادی های دولبی تمرکز انرژی شان در فرکانس های پایین است (500-1500 هرتز)
انسدادی های لثوی تمرکز انرژی شان در فرکانس های بالای 4000 هرتز می باشد.
انسدادی های کامی تمرکز انرژی شان در فرکانس های 1500 تا 4000 هرتز می باشد.
ب. همخوان های سایشی
طبق تعریف، سایشی ها شامل یک انسداد در مجرای صوتی اند که برای ایجاد نویز(سایش) بزرگ اند. که میزان این انسداد یا تنگی در میان سایشیهای مختلف متفاوت است اما برای ایجاد جریان هوای آشفته در همه آن ها کافی است. جریان هوای آشفته (نویز سایشی) در سایشیهای بی واک (/f/š/s/h/) به عنوان تنها منبع صوتی می باشد. در سایشی های واکدار (/v/ž/z) هم نویز سایشی سوپراگلوت و هم منبع صوتی را داریم.
ویژگی های گذر سازه ای در همخوان های سایشی:
سایشی های لثوی (/s/z/) و کامی (š/ ž) با درجه تنگی بیشتری تولید می شوند که در قسمت خلفی دهان است، که فضای تشدیدی بزرگتری ایجاد میکند که نتیجهی آن نویز سایشی با انرژی بیشتر و f بالاتر میباشد.
در سایشیهای لثوی اغلب انرژی در فرکانسهای بالای f2تمرکز یافته است.
در سایشیهای کامی اغلب انرژی در فرکانسهای بالای f3تمرکز یافته است.
در صدای /s/در همه فرکانس ها نویز وجود دارد، در حالیکه در صدای /š/نویز در پایین طیف کاهش می یابد (گاهی مواقع در زیر 1500-2000 هرتز نویزی نداریم).
جفت های واکدار (/z/ ž/) از طریق سه ویژگی از جفت های بی واک (/s/š/) تمییز داده میشوند: الف. دامنه کمتر سایش در جفت های واکدار، ب. دیرش کمتر نویز سایشی در جفت های واکدار ج- وجود voicing barدر جفت های واکدار.
در سایشی های لبی –دندانی (/f/v/) طیف پهن اما با انرژی کم را مشاهده می کنیم.
در سایشی های خلفی/چاکنایی /h/: این نوع سایشی مانند aspiration noiseاست که طی آن جریان هوا از یک چاکنای باز عبور می کند که انرژی کم در طیف آن دیده می شود. در برخی منابع، اسپکتروم نویز /h/را به عنوان اپی گلوتال عنوان می کنند که استدلال می کنند که هوا به سمت مانع اپی گلوت هدایت می شود.
ج. همخوان های خیشومی:
همخوان های خیشومی بوسیله انسداد حفره دهان، باز شدن دریچه کامی حلقی، و جریان مداوم هوا از طریق حفره بینی تولید می شوند. شکل حلق برای همخوانهای خیشومی مشابه است، که این موضوع منجر به قله های فرمنتی مشابه در این همخوان ها می شود. در این همخوان ها، در واقع ما جفت تشدید کننده و ضد تشدید کننده داریم و اضافه شدن این ضد تشدید کننده به عملکرد فیلترینگ، منجر به کاهش انرژی هارمونیکها می شود. در مورد همخوان های خیشومی Behrmanمی گوید که ساختار فرمنتی مشابه واکه ها دارند ولی برخلاف واکه ها با درجه تنگی بزرگتری رخ می دهند.
ویژگی های اکوستیکی همخوان های خیشومی:
F1در حدود 500 –1500 کاهش می یابد.
F2 و f3در همخوانهای خیشومی متنوعند (معمولا در بالای f1هیچ گونه فرمنتی را در بر نمیگرد).
علامت برجسته آن ضعف باندهای فرمنتی است که ناشی از سطح پایین انرژی در تمام مدت زمان تولید همخوان ها می باشد.
برای واکه ای که قبل از یک همخوان خیشومی دولبی /m/می آید، کاهش f2را قبل از همخوان دولبی در بافت vcو کاهش آن را بعد از همخوان دولبی در بافت vcمشاهده می کنیم.
با وجود اینکه موارد بالا کر شد، توجه به این نکته مهم است که شواهد اکوستیکی برای جایگاه تولید در خیشومی ها واضح نیست و اسپکتروگرافی برای تعیین درجه نیزالیتی چندان کمک کننده نیست.
Vowel nasalization:
نیزالیزیشن در واکه ها به اضافه شدن یک تشدید خیشومی به عمکلرد فیلتر مجرای صوتی اطلاق می شود.خیشومی شدگی واکه ها به علت هماهنگی تولید(coarticulation) رخ می دهد. در ترکیبات cvکه همخوان یک نیزال است، بخش vpدر هنگام پیش بینی همخوان نیزال باز می شود در حالیکه واکه هنوز تولید می شود. به عبارت دیگر واکه ی نزدیک همخوان خیشومی ، خیشومی می شود. به گونه ای مشابه، در ترکیبات cv، بخش vpهنوز در حال بسته شدن است که واکه ی بعد از همخوان نیزال تولید می شود و واکه خیشومی می شود.
جفت شدن (اتصال ) فضای تشدیدی میزال با حفره حلقی دهانی، فرمنت های مجرای صوتی را به شکل پیچیده ای تغییر می دهد. خیشومی شدگی یک anti-resonanceبه عملکرد فیلتر مجرای صوتی اضافه می کند که انرژی هر هارمونیک را که نزدیک به فرکانس مشابه anti-resonanceاست ، را کاهش می دهد.
در اسپکتروگرام، جایگاه anti-resonanceاغلب در کاهش / فقدان انرژی هارمونیک قابل مشاهده است.
د. همخوان های غلتان (glide):
همخوان های غلتان (W/J) از طریق تغییر شکل قابل تمییز یافتن از واکه های مجاور نمی باشند. چون که منبع صوتی near periodicدارند و هیچ گونه وقفه ای در طی شکل موج آن ها رخ نمی دهد (مثل شکاف انسدادی، انفجار رهشی، نویز سایشی و ...). بنابراین برای فهم علائم آکوستیکی آن ها بهتر است از ویژگی طیفی آن ها استفاده شود.
صداهای (W/J) از لحاظ آکوستیکی و فیزیولوژیکی مشابه با (i//u) هستند و زمانیکه با یک واکه ترکیب می شوند الگویی از تغییرات فرمنتی مشابه با diphthongها ایجاد می کنند. اما این همخوان ها از لحاظ اکوستیکی با واکه های /i/و /u/تفاوت دارند که این تفاوت ها شامل:
F3در /w/معمولا ضعیف است.
F3در /j/دارای فرکانس بالاتری نسبت به /i/می باشد.
ویژگی های گذر سازه ای برای همخوان های غلتان:
شواهد اکوستیکی برای مکان تولید همخوانهای غلتان: انتقال فرمنتی است.
برای غلتان های کامی /j/و دولبی /w/در بافت cv، f1از فرکانس پایین به سمت یک حالت بالا و ثابت از واکه بعدی می رود (افزایش می یابد). که دلیل این افزایش رها شدن حالت گردی لبها برای هر دوی /w/و /j/می باشد.
اما f2هنگامی که /w/به سمت واکه بعدی حرکت می کند باز هم افزایش می یابد، ولی در /j/به سمت پایین حرکت می کند.
ه. همخوان های روان:
همخوانهای روان /l/r/از طریق شکل موج قابل تمایز از واکه های مجاور نمی باشند، به همان دلایلی که در همخوان های غلتان توضیح داده شد. اما این ویژگی در مورد صدای /l/به طور کامل صدق نمی کند چون که یک وقفه کوتاه در این صدا دیده می شود.
در همخوان /l/شواهد اکوستیکی برای شیوه تولید برای شیوهی تولید تولید آن به علت خروجی طرفی جریان هوا پیچیده است. که در این همخوان هر دوی فرمنت و آنتی فرمنت روی عملکرد فیلتر آکوستیکی تاثیر میگذارد. در این صدا جریان هوا به علت انسدادی که در بخش مرکزی لثوی ایجاد یشود به طرفین میرود، که این انحراف منجر به اضافه شدن آنتی فرمنت به عملکرد فیلترینگ میشود.
در همخوان /l/ ما تغییرپذیری بالای فرمنتها را به خصوص F2را داریم. و ویژگیهای فرمنتی آن بسیار مشابه با هم ارگانیک خیشومی /n/ است.
در همخوان /r/ ما کاهش شدید F3را داریم که به F2نزدیک میشودو ما میتوانیم velar pinchرا مشاهده کنیم.
و)همخوانهای سایشی-مرکب
این همخوانها، انسدادیهایی هستند که بوسیله یک سایشی هم ارگانیک دنبال میشوند(ts/d3). در این صداها انسداد رها میشود ولی تنگی برای ایجاد حالت نویز سایشی بعد از انفجار هوا باقی میماند. شواهد آکوستیکی برای این صداها مشابه با همخوانهی انسدادی و سایشی میباشد.
References
Baken, R.J. and R.F. Orlikoff, Clinical measurement of speech and voice. 2000: Singular Pub Group
Behrman, A., Speechand voice science. 2007: Plural Pub Inc